iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 4
3

曾在一則搞笑廣告中看到語音助理與主人的互動,語音助理可以透過主人說話幫忙打蔬果汁和準備餐點,也可以幫忙開啟咖啡機、電視機、收音機,跑步機,然後鬧鐘、生活記事等都無所不能,但因為劇中收音機和跑步機語音互相干擾的關係,導致跑步機速度越來越快,主人摔得四腳朝天,這時鄰居正快意的在戶外慢跑,形成一個強烈的對比。
Yes

從上述的廣告案例來說,這並非空穴來風,但其實早期就有類比設定器可以做到,只要時間設定好,又沒有停電的話,所有指定的工作都可以在設定時間內完成,即便沒有語音控制,好像也可以完成,而且完成度很高。既然科技已然和聲控有所連結,必然要有一個全球標準化的語音資料庫的建置來輔助,否則語音差異和辨識出錯是常有的事,就會像一部敖幼祥畫的一部漫畫《烏龍院》劇情,明明大師兄跟士兵傳令說要「地圖」,結果士兵中間傳到變成「壁虎」、「夜壺」等,最後一個士兵跑來脫掉褲子,跟大師兄說:『屁股來了!』
Yes

這類的辨識錯誤,在生活中是很常見,雖然最新的AI辨識系統強調可以藉由聲紋和臉部咬合去辨識出性別、年齡、種族,甚至可以從人臉資料庫中調出相關照片,例如Speech2Face的測試,只是仍存在著辨識錯誤的比率。所以必須借助語音學或聲韻學這類的專業,很多人會認為這不重要,甚至老掉牙,但實際去翻閱這些學門的書,你會驚訝到原來這一套理論是有科學依據,絕對不是天馬行空,能夠發聲的部位分成:雙脣、唇齒、舌尖(前、後、中)、舌葉、舌面前、舌根及喉嚨;發出的音有:塞音(清、濁)、塞擦音(清、濁)、鼻(濁)、邊(濁)、擦(清、濁)、半原音,其中塞音、塞擦音的清音、濁音還分送氣與不送氣,好吧!講到這裡,想必一半人以上都頭昏了,只是強調一下,任何的語言都很重視這套基準,來玩個簡單的發音遊戲,把英文「S」和「T」連續發音幾次,就會很有感,才會知道關鍵其實就在你的舌頭,任何的語音辨識系統的建置,大多都忽略到這點,所以AI的語音學習之路還很久遠,至少能練習到不會發生重複說到抓狂,還顯示錯誤動作時,就表示AI語音學習成熟了。
Yes


上一篇
人與機器的溝通之路
下一篇
AI的硬體智慧-感測元件與電子元件
系列文
文明的進程:人溝通、機器溝通到神溝通30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言